Neural networks have achieved impressive results on many technological and scientific tasks. Yet, their empirical successes have outpaced our fundamental understanding of their structure and function. By identifying mechanisms driving the successes of neural networks, we can provide principled approaches for improving neural network performance and develop simple and effective alternatives. In this work, we isolate the key mechanism driving feature learning in fully connected neural networks by connecting neural feature learning to the average gradient outer product. We subsequently leverage this mechanism to design \textit{Recursive Feature Machines} (RFMs), which are kernel machines that learn features. We show that RFMs (1) accurately capture features learned by deep fully connected neural networks, (2) close the gap between kernel machines and fully connected networks, and (3) surpass a broad spectrum of models including neural networks on tabular data. Furthermore, we demonstrate that RFMs shed light on recently observed deep learning phenomena such as grokking, lottery tickets, simplicity biases, and spurious features. We provide a Python implementation to make our method broadly accessible [\href{https://github.com/aradha/recursive_feature_machines}{GitHub}].
translated by 谷歌翻译
生成对抗网络(GAN)是用于复杂数据生成建模的广泛使用的工具。尽管取得了经验成功,但由于发电机和鉴别器的最低最大优化,对GAN的训练尚未完全理解。本文分析了这些关节动力学时,当真实样品以及生成的样品是离散的,有限的集合,并且鉴别器基于内核。引入了一个简单而表达的框架,用于分析培训,称为$ \ textit {隔离点模型} $。在提出的模型中,真实样品之间的距离大大超过了内核宽度,因此每个生成的点都受到最多一个真实点的影响。我们的模型可以精确地表征好和不良最小值的收敛条件。特别是,分析解释了两种常见的故障模式:(i)近似模式崩溃和(ii)差异。提供了可预测复制这些行为的数值模拟。
translated by 谷歌翻译
过度参数化的神经网络的实际成功促进了最近对插值方法的科学研究,这些研究非常适合其训练数据。如果没有灾难性的测试表现,包括神经网络在内的某些插值方法(包括神经网络)可以符合嘈杂的训练数据,这是违反统计学习理论的标准直觉的。为了解释这一点,最近的一系列工作研究了$ \ textit {良性过拟合} $,这是一种现象,其中一些插值方法即使在存在噪音的情况下也接近了贝叶斯的最佳性。在这项工作中,我们认为,虽然良性过度拟合既具有启发性和富有成效的研究在测试时间的风险,这意味着这些模型既不是良性也不是灾难性的,而是属于中间状态。我们称此中级制度$ \ textit {perked forporting} $,我们启动其系统研究。我们首先在内核(Ridge)回归(KR)的背景下探索这种现象,通过在脊参数和核特征光谱上获得条件,KR在这些条件下表现出三种行为。我们发现,具有PowerLaw光谱的内核,包括Laplace内核和Relu神经切线内核,表现出了过度拟合的。然后,我们通过分类法的镜头从经验上研究深度神经网络,并发现接受插值训练的人是脾气暴躁的,而那些训练的人则是良性的。我们希望我们的工作能够使人们对现代学习过度拟合的过度理解。
translated by 谷歌翻译
随着宽度的增长,随着宽度的增长,随机初始化的宽神经网络过渡到重量的线性函数,在初始化周围的半径$ o(1)$中。该结果的必要条件是,网络的所有层都足够宽,即所有宽度都倾向于无穷大。然而,当违反这种无限宽度假设时,向线性的过渡会分解。在这项工作中,我们表明具有瓶颈层的线性网络学习重量的双线性功能,在初始化周围的半径$ O(1)$中。通常,对于$ b-1 $的瓶颈层,该网络是$ b $ bug tegriinear fungiers flows flowss a。重要的是,该度仅取决于瓶颈的数量,而不取决于网络的总深度。
translated by 谷歌翻译
在没有人为干预的图像自动色彩上是在机器学习界的兴趣中的一个短暂的时间。分配颜色到图像是一个非常令人虐待的问题,因为它具有非常高的自由度的先天性;给定图像,通常没有单一的颜色组合是正确的。除了着色之外,图像重建中的另一个问题是单图像超分辨率,其旨在将低分辨率图像转换为更高的分辨率。该研究旨在通过专注于图像的非常特定的图像,即天文图像,并使用生成的对抗网络(GAN)来提供自动化方法。我们探索两种不同颜色空间,RGB和L * A *中各种型号的使用。我们使用传输学习,由于小数据集,使用预先训练的Reset-18作为骨干,即U-Net的编码器,进一步微调。该模型产生视觉上有吸引力的图像,其在原始图像中不存在的这些结果中呈现的高分辨率高分辨率,着色数据。我们通过使用所有通道的每个颜色空间中的距离度量(例如L1距离和L2距离)评估GAN来提供我们的结果,以提供比较分析。我们使用Frechet Inception距离(FID)将生成的图像的分布与实际图像的分布进行比较,以评估模型的性能。
translated by 谷歌翻译
中风康复旨在通过功能运动的重复实践来增加神经塑性,但由于重复不足,对恢复可能具有最小的影响。最佳培训内容和数量目前未知,因为不存在测量它们的实用工具。在这里,我们呈现Primseq,一个管道来分类和计算在笔划康复中培训的功能动作。我们的方法集成了可穿戴传感器来捕获上体运动,深度学习模型来预测运动序列,以及对Tally Motions的算法。训练有素的模型将康复活动分解成组件功能运动,优于竞争性机器学习方法。 Primseq进一步在人类专家的时间和劳动力成本的一小部分中量化了这些动作。我们展示了以前看不见的中风患者的Primseq的能力,这是一系列上肢电机损伤。我们预计这些进步将支持在中风康复中定量给药试验所需的严格测量。
translated by 谷歌翻译
从视频和动态数据自动活动识别是一种重要的机器学习问题,其应用范围从机器人到智能健康。大多数现有的作品集中在确定粗动作,如跑步,登山,或切割植物,其具有相对长的持续时间。这对于那些需要细微动作中的高时间分辨率识别应用的一个重要限制。例如,在中风恢复,定量康复剂量需要区分具有亚秒持续时间的运动。我们的目标是弥合这一差距。为此,我们引入了一个大规模,多数据集,StrokeRehab,为包括标记高时间分辨率微妙的短期操作的新动作识别基准。这些短期的行为被称为功能性原语和由河段,运输,重新定位,稳定作用,和空转的。所述数据集由高品质的惯性测量单元的传感器和执行的日常生活像馈送,刷牙等的活动41中风影响的病人的视频数据的,我们表明,基于分割产生嘈杂状态的最先进的现有机型预测时,对这些数据,这往往会导致行动超量。为了解决这个问题,我们提出了高分辨率的活动识别,通过语音识别技术的启发,它是基于一个序列到序列模型,直接预测的动作序列的新方法。这种方法优于国家的最先进的电流在StrokeRehab数据集的方法,以及对标准的基准数据集50Salads,早餐,和拼图。
translated by 谷歌翻译